Tổng quan và Bức tranh tiến hóa kiến trúc
Chúng ta chuyển từ thành công nền tảng của AlexNet sang thời kỳ của các mạng nơ-ron sâu cực kỳ mạng nơ-ron tích chập (CNNs). Sự thay đổi này đòi hỏi những đổi mới kiến trúc sâu sắc để xử lý độ sâu cực lớn mà vẫn duy trì tính ổn định trong huấn luyện. Chúng ta sẽ phân tích ba kiến trúc then chốt—VGG, GoogLeNet (Inception), và ResNet—hiểu cách mỗi kiến trúc giải quyết các khía cạnh khác nhau của bài toán mở rộng quy mô, tạo nền tảng cho việc diễn giải mô hình một cách nghiêm ngặt ở phần sau của bài học này.
1. Tính đơn giản về cấu trúc: VGG
VGG đã giới thiệu phương pháp tối đa hóa độ sâu bằng cách sử dụng các kích thước bộ lọc nhỏ và cực kỳ đồng nhất (chỉ có bộ lọc tích chập 3x3được chồng lên nhau). Mặc dù tốn kém về mặt tính toán, nhưng sự đồng nhất về cấu trúc của nó đã chứng minh rằng độ sâu thực tế, đạt được nhờ sự thay đổi kiến trúc tối thiểu, chính là yếu tố chủ chốt thúc đẩy cải thiện hiệu suất, củng cố tầm quan trọng của các trường nhận diện nhỏ.
2. Hiệu quả tính toán: GoogLeNet (Inception)
GoogLeNet đã khắc phục chi phí tính toán cao của VGG bằng cách ưu tiên hiệu quả và trích xuất đặc trưng đa quy mô. Đột phá cốt lõi là module Inception, thực hiện các phép tích chập song song (1x1, 3x3, 5x5) và trích xuất đặc trưng. Quan trọng nhất, nó sử dụng tích chập 1x1 như là các điểm nghẽnđể giảm mạnh số lượng tham số và độ phức tạp tính toán trước các thao tác tốn kém.
Đường nối bỏ qua đưa vào đầu ra một hạng tử đồng nhất ($+x$), tạo ra một hạng tử cộng dồn trên đường đi của đạo hàm ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). Hạng tử này đảm bảo tồn tại một con đường trực tiếp cho tín hiệu gradient chảy ngược lại, đảm bảo rằng các trọng số phía trước luôn nhận được tín hiệu gradient không bằng 0 và có thể sử dụng, bất kể độ nhỏ của gradient qua hàm dư thừa $F(x)$ là bao nhiêu.